今天我要把之前計算出的 RPKM 值保存到 Excel 文件中,並進行驗證,以確保數據的正確性和完整性。
首先我將 RPKM 的計算結果與原始的基因數據(例如基因代號、長度等等)合併,這樣可以保證在後續保存時能夠看到完整的數據,以下是 Code:
# 將 RPKM 結果與原始基因數據合併
df_rpkm = pd.concat([df, rpkm_df], axis=1)
# 檢查合併結果
print(df_rpkm.head())
在上面這段 Code 中,我使用 pd.concat
函數將 RPKM 的計算結果與原始基因數據進行合併,這樣就擁有了每個基因的完整信息,包括基因代號、起始位置、結束位置、基因長度以及各個樣本中的 RPKM 值。
接下來我將合併後的結果保存到 Excel 文件中:
# 保存 RPKM 結果到 Excel 文件
df_rpkm.to_excel("RPKM_計算結果.xlsx", index=False)
最後我重新讀取這個 Excel 文件,並進行簡單的檢查,確保數據在保存和讀取過程中保持完整和正確:
df_loaded = pd.read_excel("RPKM_計算結果.xlsx")
print(df_loaded.head())
# 檢查數據是否一致
print(df_rpkm.equals(df_loaded))
通過這段代碼上面這段 Code,可以檢查 Excel 文件中的數據是否與原始計算結果一致,這樣就能夠確認數據在保存過程中沒有發生任何錯誤。
至此,我們已經成功計算每個基因的 RPKM 值,這些數據可以用來進行後續的生物學分析和報告。